Informationsspeicherung in GETESS oder Die Strukturierung des Semistrukturierbarkeit

نویسندگان

  • Meike Klettke
  • Andreas Heuer
چکیده

s in XML Anfragen Abbildung Drei Methoden zur Speicherung von Abstract Informationen Ubersetzung von Informationen im XML Format in eine objektrelatio nale Datenbank In diesem Abschnitt wird der Versuch dargestellt die als semistrukturierte Daten dargestellten Abstract strukturiert zu speichern Das klingt zun achst paradox da man damit die Besonderheiten der semistruk turierten Daten nicht ber ucksichtigt Wenn h au g gleiche Strukturen in den Abstracts auftreten bietet diese Methode jedoch alle Vorteile von Datenbankmanagementsystemen insbesondere eine erweiterte Anfragefunktionalit at Speicherung Die Umsetzung einer XML Struktur in eine objektrelationale Datenbank soll hier anhand eines Beispiels kurz erl autert werden Dabei l a t sich eine Sequenz von Elementen auf Attribute einer Relation abbilden hierarchische Schachtelung von Elementen lassen sich aufNF Relationen abbilden und optionale Elemente sind als Attribute mit erlaubten Nullwerten darstellbar Das Beispiel aus Abschnitt w urde durch folgende Relation repr asentiert werden Name Kategorie Adresse Preise Service Umgebung Ort Anfragem oglichkeiten Der wesentliche Vorteil der Verwendung von Datenbanken sind erweiterte Anfragem oglichkeiten Einige davon die f ur die Verwendung innerhalb einer Suchmaschine besonders relevant sind seien hier aufgez ahlt Typabh angige Vergleiche Es sind Vergleiche uber Integerwerten m oglich in der Dom ane Tourismus z B uber Preis und Entfernungsangaben weiterhin kann nach solchen Werte die Ergebnismenge sortiert werden Aggregatfunktionen Man kann Minimum Maximum Durchschnittswerte usw ermitteln Joins Es k onnen aus den Abstracts verschiedener WWW Dokumente Antworten abgeleitet werden auch wenn die Originaldokumente nicht durch Links verbunden sind Die Speicherung in Datenban ken bietet die M oglichkeit nicht nur Ergebnisse auf Suchanfragen zu nden sondern auch Antworten auf komplexere Anfragen abzuleiten Diese Anfragem oglichkeiten erweitern herk ommliche Suchanfragen in erheblicher Weise Ubersetzung von Informationen im XML Format in objektrelationale Datenbanken mit dem Datentyp XML Obwohl durch die Ontologiemodellierung eine Struktur f ur die Datenbanken zur Abstractspeicherung ent worfen wird haben die Abstractdaten die klassischen Z uge von semistrukturierten Daten Die aus dem WWW analysierten Abstracts sind ebenso wie die Originaldokumenten in starkem Ma e unterschied lich strukturiert Bei einem Versuch diese vollst andig in strukturierte Datenbanken abzubilden w urden sehr gro e Datenbank Schemata entstehen in denen sehr viele Nullwerte auftauchen In der Anwendungs dom ane mit mehreren hundert Hotelbeschreibungen gibt es verschiedene Angaben z B Preisstrukturen die nur in einer Beschreibung vorkommen F ur solche F alle erweist sich die anschlie end vorgestellte zweite Variante der Speicherung als sinnvoll Speicherung H au g vorkommende Strukturelemente werden aufgel ost und als Attribute in einer Re lation gespeichert dieses erfolgt wie in Abschnitt beschrieben seltener vorkommende Teile werden in der XML Struktur belassen und als Attribut mit Typ XML aufgenommen Dazu wurde in ein Prototyp vorgeschlagen der aufbauend auf einem Text Extender eine XML Erwei terung f ur objektrelationale Datenbanken Informix und DB vorschl agt und f ur DB erstellt Der Vorteil dieses Zuganges ist da der Text Extender von DB bzw das Excalibur Text Data Blade unter Informix als Basis verwendet werden kann um solche Funktionen wie Synonymsuche Wortstamm reduktion Fuzzy Suche usw nutzen zu k onnen Als Hauptproblem erwies sich bei dieser L osung da der Index nur auf den gesamten XML Dokumenten gebildet werden kann Die XML Dokumente k onnen also nur als Volltext aufgefa t werden soda nur eine Vorselektion f ur Anfragen getro en werden kann Es ist nach der Verwendung des TextExtenders ein zweiter Durchlauf durch das Dokument notwendig bei dem die XML Struktur analysiert wird um Anfragen zu beantworten Beispiel Name Strand Hotel H ubner Name Adresse Ort Warnem unde Ort Adresse Umgebung km nach Rostock Umgebung Durch Verwendung des Text Extenders kann man zum Beispiel nicht feststellen ob das ElementOrt Rostock erf ullt ist Man kann aufgrund des Indexes feststellen da sowohl Ort als auch Rostock im Dokument vor kommen da aber das Dokument nicht strukturiert indexiert wird mu anschlie end durch eine Analyse der XML Struktur uberpr uft werden in welchem Zusammenhang die gefundenen Terme stehen Anmerkung Bei der Verwendung des Text Extenders von DB besteht weiterhin das Problem da kein R uckgabevektor existiert soda viele Funktionen nicht verwendbar sind Man kann dabei zum Beispiel feststellen da ein Synonym eines Suchbegri es vorhanden ist wei aber nicht welches Synonym und ebenfalls nicht wo es gefunden wurde Trotz dieser Nachteile ist diese Methode eine relativ schnell zu realisierende M oglichkeit um einen ein fachen Zugri auf XML Dokumente innerhalb einer Datenbanksystems zu realisieren Eine kommerzielle Erweiterung von DB zur Unterst utzung von XML Datentypen ist angek undigt und wird diesen Prototyp abl osen Anfragem oglichkeiten Bei einer solchen Realisierung stehen die erweiterten Anfragem oglichkeiten uber den in der Datenbank strukturierten Attributen die in Abschnitt beschrieben wurden ebenfalls zur Verf ugung Uber den XML Attributen m ussen zus atzliche Anfragen realisiert werden wie z B Suche nach Termen Suche nach Attributnamen Suche nach Elementnamen Vergleich Attribut Wert Vergleich Element Wert Suche nach verschiedenen Termen im gleichen Element Suche nach einem Wert in einem Element und in allen Child Elementen Realisierung von Wildcards in Pfadausdr ucken Speicherung von Informationen im XML Format Speicherung Wenn kein Datenbanksystem zur Verf ugung steht sollen die Informationen in der XML Struktur die Basis f ur die Suchanfragen sein Die Abstracts werden dann in dem Austauschformat belassen und gespeichert Anfragem oglichkeiten Die Anfragerealisierung bei dieser Variante erfolgt analog zu der beschrie benen Variante sie unterscheidet sich nur dadurch da keine Vorselektion durch einen Text Extender m oglich ist Es m ussen dort ebenfalls die oben beschriebenen Anfragen realisiert werden k onnen aber die gleichen Methoden zur Analyse und Auswertung der XML Strukturen eingesetzt werden Diese drei Methoden zur Speicherung sollen in der Suchmaschine eingesetzt werden sie bedingen sehr unterschiedliche Anfragem oglichkeiten Es ist jedoch eine einheitliche Schnittstelle erforderlich F ur diese wird innerhalb des Projektes GETESS eine Sprache IRQL entwickelt und eingesetzt die aufw arts kompatibel zu SQL und IR Anfragesprachen ist Durch die IRQL werden Suchanfragen beschrieben und auf die verschiedenen Anfragem oglichkeiten umgesetzt Zusammenfassung und Ausblick Die Verwendung von Datenbanken zur strukturierten Speicherung von Informationen bereichert Suchma schinen da dadurch qualitativ neue Suchanfragen realisierbar werden Abstract Informationen aus einer eingeschr ankten Anwendungsdom ane werden in GETESS aus WWW Dokumenten abgeleitet Diese werden auf verschiedene Weise gespeichert und stehen f ur komplexe An fragen zur Verf ugung Dabei werden soweit m oglich die Vorteile strukturierter Datenbanken f ur eine semistrukturierte Anwendung genutzt Momentan werden XML Strukturen innerhalb von GETESS als Austauschformat f ur Abstracts verwen det Wenn Originaldokumente im WWW in XML dargestellt sind diese Entwicklung kann man nicht vorhersagen momentan erscheint diese Annahme jedoch realistisch kann man den hier kurz beschriebe nen Ansatz auch auf Originaldokumente erweitern Sofern die Dokumente aussagekr aftige beschreibende Elemente enthalten kann man versuchen Teile aus Originaldokumenten aufgrund der modellierten On tologien strukturiert zu speichern und so ebenso wie bei Abstracts eine Speicherung und Auswertung von strukturierten und in XML belassenen Strukturen zu kombinieren

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Struktur von IT-Servicekatalogen: Ein praxisorientierter Gestaltungsvorschlag für die Dokumentation des IT-Leistungsangebots

Vielfach erweist sich Aufbau und Ausgestaltung von ITServicekatalogen in der Praxis als schwierig, da konkrete Gestaltungshilfen zur Strukturierung des Leistungsangebots fehlen oder nur eingeschränkt anwendbar sind. In diesem Beitrag wird ein Ansatz vorgestellt, der zu einer durchgängigen und transparenten Strukturierung des IT-Leistungsangebots beiträgt und einen konkreten Gestaltungsvorschlag...

متن کامل

STABLE: Ein Ansatz zur systematischen Strukturierung von Anforderungen

Motivation In vielen Branchen der Systementwicklung mit einer ausgeprägten Auftraggeberund AuftragnehmerTrennung haben in natürlicher Sprache verfasste Spezifikationen eine zentrale Position zur Festlegung und Abstimmung der zu entwickelnden Umfänge. Bei großen Projekten entwickelt sich allein aufgrund der schieren Menge an beteiligten Teams, Abteilungen und zu berücksichtigenden Normen eine he...

متن کامل

Das "Hausmodell" - Framework für die Organisation von E-Learning-Inhalten

Das „Hausmodell“ dient der inhaltlichen Strukturierung des E-LearningSystems „Informationssysteme und ihre Vernetzung in der Milcherzeugung“. Mittlerweile ist eine Struktur verfügbar, die auch für andere Inhalte des Agrarbereiches bedeutsam sein kann. Daher wurde für diese Art der Inhaltsstrukturierung in unserer Arbeitsgruppe ein Framework entwickelt, das zur Organisation beliebiger Lerninhalt...

متن کامل

SOBOLEO: vom kollaborativen Tagging zur leichtgewichtigen Ontologie

Bisher gibt es kein integriertes Werkzeug, das sowohl die kollaborative Erstellung eines Indexes relevanter Internetressourcen („Social Bookmarking“) als auch einer gemeinsamen Ontologie, die zur Organisation des Indexes genutzt wird, integriert unterstützt. Derzeitige Werkzeuge gestatten entweder die Erstellung einer Ontologie oder die Strukturierung von Ressourcen entsprechend einer vorgegebe...

متن کامل

Strukturierung der gemeinsamen Informationsbasis - notwendige Voraussetzung und Ergebnis koopertiver Lernprozess

Telematisch intendierte Angebote finden zunehmend Eingang in virtuelle (online learning = Lernen ohne Präsenzveranstaltungen) oder teilvirtuelle (blended learning = Mischung von Präsenz und virtuellen Veranstaltungsformen) Lernszenarien. Allen gemeinsam ist die Problematik der Rückführung der Arbeitsergebnisse z.T. umfangreicher Gruppenarbeit in eine Form, die es ermöglicht, die erzielten Arbei...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 1999